1
Pengantar Pembelajaran Penguatan Mendalam (DRL)
EvoClass-AI003Lecture 9
00:00

Pengantar Pembelajaran Penguatan Mendalam (DRL)

Pembelajaran Penguatan Mendalam (DRL) menggabungkan kemampuan representasi berdimensi tinggi dari Jaringan Saraf Dalam dengan kerangka kontrol optimal dari Pembelajaran Penguatan. Berbeda dengan pembelajaran terawasi atau tak terawasi, DRL agen belajar melalui interaksi coba-coba dan kesalahan di lingkungan yang dinamis lingkungan, membuat keputusan berturut-turut keputusan berturut-turut tanpa label langsung atau eksplisit. Integrasi ini memungkinkan agen menangani masukan kompleks dan mentah (seperti data piksel) secara langsung.

1. Paradigma Pembelajaran DRL

Agen RL beroperasi dalam siklus terus-menerus: mengamati lingkungan Keadaan ($S_t$), melakukan tindakan Tindakan ($A_t$), dan menerima sinyal skalar yang mungkin jarang atau tertunda Imbalan ($R_{t+1}$). Tantangan utama adalah masalah penugasan kredit: menentukan tindakan masa lalu mana yang bertanggung jawab atas sinyal imbalan di masa depan.

2. Tujuan Optimasi

Tujuan akhir adalah menemukan strategi optimal, atau kebijakan ($\pi^*$), yaitu pemetaan dari keadaan ke tindakan, yang memaksimalkan Return Kumulatif Diskon yang Diharapkan ($G_t$). Faktor diskonto ($\gamma \in [0, 1]$) sangat penting secara matematis, mendefinisikan seberapa besar kita menghargai imbalan segera dibandingkan imbalan yang diharapkan jauh ke masa depan.

$$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$
Question 1
How does the DRL agent receive feedback from the environment?
Explicit labels/targets
Backpropagation through time
Scalar reward signal
Labeled demonstration data
Question 2
What does the policy ($\pi$) mathematically represent?
The predicted total reward
A distribution over actions given a state
The probability of transitioning to a new state
The error between predicted and actual returns
Challenge: The Discount Factor
Analyzing the Temporal Horizon.
Consider two scenarios:
1. $\gamma = 0$
2. $\gamma \approx 1$

Describe the agent's behavioral preference in each case regarding the timeline of rewards.
Step 1
How does the choice of $\gamma$ affect the policy's horizon?
Solution:
If $\gamma = 0$, the agent is myopic (shortsighted), focusing only on the immediate reward $R_{t+1}$. If $\gamma \approx 1$, the agent is far-sighted, equally weighting immediate and distant future rewards, leading to planning over a very long horizon.